2024年4月にアップデートした、GPT-4 Turboの実力

OpenAIとChatbot Arenaの結果を2つ紹介する。

結論

gpt-4-turbo-2024-04-09が、Claude3 Opusと同じか、それより少し性能が良い結果となった。

前回のAPI versionと比較して、特に推論能力が大幅に強化されている。

ChatGPT有料版はすでにこのアップデートが反映されている

感じたこと

ほとんどの処理は、ChatGPTの有料版を使えば合格点と言える。

一部の特殊なケースでは、引き続きClaude3を使用するのが良さそう。

長文処理が必要なタスク(論文翻訳や要約)

(Chatbot ArenaではClaude3 Opusが首位)

より自然な日本語が必要なタスク

生成速度が気になるほど、急いでいるタスク

OpenAIの実験結果

https://github.com/openai/simple-evals

Evals

MMLU (汎用的な問題)

MATH (高度な推論)

GPQA (高度な推論)

DROP (読解力 & 推論)

MGSM (推論)

HumanEval (コード)

結果

https://github.com/openai/simple-evals?tab=readme-ov-file#benchmark-results

前回のAPI(gpt-4-0125-preview)との比較

https://scrapbox.io/files/661b2acbd954a7002618353d.png

https://twitter.com/OpenAI/status/1778574613813006610

https://scrapbox.io/files/661aff9821dd1700251dba27.png

gpt-4-turbo-2024-04-09が、ほぼ全てのタスクで、前回を上回る結果に。

推論能力が大幅に強化されたといえる

特に、GPQA(大学院レベルの激ムズデータセット)のスコアが、顕著に上昇

Knowledge cutoffも2023年12月となり、MMLU/DROPなどのスコア改善に寄与しているか。

HumanEval(コーディング)だけ若干下がっているが、軽微と考えられる。

Claude3 Opusとの比較

https://scrapbox.io/files/661b04f170ac9200255727c3.png

上2つが今回の実験結果

emptyは、system messageが空

lmsysは、以下のFastChatで設定されたsystem message

https://github.com/lm-sys/FastChat/blob/7899355ebe32117fdae83985cf8ee476d2f4243f/fastchat/conversation.py#L894

一番下は、Claude3の紹介で報告された数値

4/6のタスク(GPQA (高度な推論)と MGSM (推論)を除く)で、GPT-4 Turboに軍配が。

明確にClaude3 Opusより優れている！とはなかなか言えない結果で、同じかやや性能がいいくらいという認識で良いだろう。

Gemini 1.5 Proとの比較

https://scrapbox.io/files/661b05a33053fb00246d4f14.png

Gemini 1.5 Pro テクニカルレポートで報告された数値との比較

gpt-4-turbo-2024-04-09が、4/5のタスクで上回る結果に。

Chatbot Arenaでの結果

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

https://scrapbox.io/files/661b24d4f0661f0025010250.png

総合評価では、gpt-4-turbo-2024-04-09が、Arena Eloレーティングで首位を獲得

2位がClaude3 Opus

長いクエリでは、Claude3 Opusが首位 (2位と僅差だが)

https://scrapbox.io/files/661b269ffaed0c0025f8bed4.png